Crawl4LLM Crawl4LLM是由清华与CMU联合开发的智能爬虫系统,通过评估网页对大语言模型预训练的价值,提升数据获取效率。支持多种爬取模式,具备状态保存、数据可视化功能,并与DCLM框架兼容。采用多维度评分机制优化爬取策略,减少低价值内容抓取,降低对网站负担,适用于LLM预训练、数据集构建等场景。 AI项目与工具 2025年06月12日 55 点赞 0 评论 247 浏览